スマホで見る方はQRコードを読み込んでください
# A tibble: 963 x 54
SUB_HAP SUB_SAT SUB_SLP DIC_PAR DIC_FRI DIC_OTH ULT_PRO_PAR ULT_PRO_FRI
<dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 4 4 9 10 5 3 10 5
2 6 5 8 3 1 0 3 5
3 5 3 3 10 5 0 10 5
4 5 5 4 2 0 0 5 5
5 3 3 2 0 0 0 5 5
6 7 7 6 3 1 0 3 1
7 5 5 6 5 2 0 5 3
8 5 5 8 5 5 0 5 5
9 1 3 1 10 5 0 10 5
10 7 7 5 5 5 0 5 5
# … with 953 more rows, and 46 more variables: ULT_PRO_OTH <dbl>,
# ULT_REC_PAR <dbl>, ULT_REC_FRI <dbl>, ULT_REC_OTH <dbl>,
# TRU_PAR <dbl>, TRU_FRI <dbl>, TRU_OTH <dbl>, SPN_UNM <dbl>,
# SPN_THK <dbl>, SPN_FEA <dbl>, SPN_LIV <dbl>, SPN_IMP <dbl>,
# KAN_SEC <dbl>, KAN_THI <dbl>, KAN_SUP <dbl>, KAN_PRD <dbl>,
# KAN_KYK <dbl>, DED_SHI <dbl>, DED_TEN <dbl>, DED_JIG <dbl>,
# DED_KIS <dbl>, DED_PUN <dbl>, SEX_IMP <dbl>, SEX_MAS <dbl>,
# SEX_SEX <dbl>, SEX_OBJ <chr>, SEX_NIN <chr>, SEX_NNA <dbl>,
# SEX_IMP_num <dbl>, SEX_MAS_nen <dbl>, SEX_SEX_nen <dbl>,
# SEX_NIN_cen <dbl>, F_SEX <chr>, F_GEN_2 <chr>, F_GEN <chr>,
# F_FGR <chr>, F_INK <chr>, F_INS <chr>, F_INK_cen <dbl>,
# F_INS_cen <dbl>, F_TAN <chr>, ARE <chr>, PRE <dbl>, MAR <chr>,
# CHI <chr>, ID <dbl>
[1] Hokkaido Chubu Chubu Kanto Kyushu Chubu Kanto
[8] Chubu Chubu Kanto Kinki Tohoku Kyushu Kyushu
[15] Chugoku Tohoku Kanto Chugoku Hokkaido Kanto Hokkaido
[22] Chubu Chubu Kanto Kanto Hokkaido Kanto Chubu
[29] Kinki Chubu Kanto Chubu Kinki Kanto Kanto
[36] Kanto Kinki Kanto Tohoku Kanto Chubu Kinki
[43] Kanto Kyushu Kyushu Tohoku Kinki Shikoku Kanto
[50] Kinki Kyushu Kanto Chugoku Kyushu Kanto Kinki
[57] Kinki Kyushu Chugoku Kyushu Kanto Kanto Kyushu
[64] Chubu Kinki Chugoku Kanto Kanto Kanto Kanto
[71] Kanto Kanto Kanto Kinki Kinki Kanto Kanto
[78] Kanto Kinki Chubu Tohoku Kinki Kanto Kanto
[85] Kinki Hokkaido Tohoku Kanto Kinki Kinki Kanto
[92] Kanto Kanto Chugoku Chubu Kanto Kyushu Kanto
[99] Chubu Chugoku Tohoku Chubu Kanto Kinki Kyushu
[106] Chugoku Kanto Hokkaido Kanto Kinki Kanto Chugoku
[113] Chubu Tohoku Chugoku Chubu Kanto Kanto Chugoku
[120] Chubu Kanto Chugoku Kanto Kyushu Kanto Chubu
[127] Chubu Chubu Kyushu Hokkaido Kinki Kanto Kanto
[134] Kanto Kanto Kanto Kanto Kanto Kinki Tohoku
[141] Kanto Kanto Kinki Kanto Shikoku Kinki Chugoku
[148] Kanto Kanto Chugoku Chubu Tohoku Hokkaido Kanto
[155] Kyushu Chubu Kanto Kanto Chubu Shikoku Kyushu
[162] Chubu Chugoku Kanto Kanto Chubu Tohoku Kinki
[169] Chubu Chubu Kanto Kanto Chubu Chugoku Chugoku
[176] Chugoku Kanto Kyushu Kanto Kanto Chugoku Kanto
[183] Kinki Kanto Kanto Chubu Chubu Chugoku Kanto
[190] Kanto Kanto Kinki Kinki Kanto Kanto Kanto
[197] Shikoku Hokkaido Chubu Kanto Kinki Kanto Kanto
[204] Chubu Chugoku Shikoku Kanto Chubu Chubu Kanto
[211] Kyushu Kanto Chugoku Kanto Kanto Kanto Kanto
[218] Kinki Kanto Kinki Kanto Tohoku Kanto Hokkaido
[225] Kinki Kanto Kanto Hokkaido Kanto Kyushu Kanto
[232] Kinki Tohoku Kanto Kinki Kinki Tohoku Kanto
[239] Kanto Kanto Kanto Kanto Kanto Kanto Chugoku
[246] Kinki Hokkaido Chugoku Kanto Kinki Chubu Kanto
[253] Kanto Chugoku Shikoku Chubu Kyushu Kanto Chubu
[260] Tohoku Kanto Kanto Kanto Tohoku Kyushu Kanto
[267] Kinki Chubu Chubu Hokkaido Kinki Kinki Kyushu
[274] Kanto Kanto Chubu Kyushu Chubu Kinki Kanto
[281] Shikoku Kanto Kanto Kanto Kinki Kyushu Kinki
[288] Kyushu Hokkaido Kinki Kanto Kanto Kyushu Kanto
[295] Kanto Kinki Kinki Kanto Kinki Tohoku Chubu
[302] Chubu Kinki Kanto Kyushu Kinki Kinki Kanto
[309] Kinki Chubu Kinki Kinki Kanto Kanto Hokkaido
[316] Kyushu Shikoku Kinki Chubu Kanto Chubu Chugoku
[323] Kanto Kinki Kanto Kanto Tohoku Chubu Tohoku
[330] Kinki Shikoku Kanto Kanto Kanto Kanto Kanto
[337] Chugoku Kinki Kanto Kinki Kanto Chubu Kanto
[344] Kinki Kanto Kyushu Chubu Chubu Kanto Chubu
[351] Kanto Kanto Tohoku Chubu Kinki Kanto Chugoku
[358] Kinki Tohoku Kanto Kinki Chubu Kinki Chubu
[365] Chubu Kinki Kanto Kinki Kanto Tohoku Kinki
[372] Kyushu Kanto Kanto Shikoku Tohoku Shikoku Kyushu
[379] Kanto Kanto Tohoku Chugoku Chubu Kanto Kanto
[386] Chubu Kinki Shikoku Kanto Kanto Hokkaido Kanto
[393] Kinki Chubu Kanto Kanto Kanto Kanto Chubu
[400] Kyushu Kanto Kinki Chubu Kanto Chubu Kanto
[407] Kanto Kanto Kinki Tohoku Kanto Kyushu Kinki
[414] Kanto Hokkaido Kanto Chubu Kanto Kyushu Kinki
[421] Chugoku Chubu Chubu Kinki Kanto Kanto Kinki
[428] Chubu Kanto Kanto Kinki Kanto Kanto Chubu
[435] Kanto Kanto Kanto Hokkaido Kinki Kanto Kinki
[442] Chugoku Kanto Chubu Hokkaido Chugoku Kinki Chubu
[449] Tohoku Kyushu Kinki Kinki Kanto Kyushu Kyushu
[456] Kyushu Kanto Tohoku Kanto Hokkaido Kyushu Kinki
[463] Kanto Kyushu Tohoku Shikoku Kanto Chubu Chugoku
[470] Chubu Kyushu Kinki Chubu Kanto Kyushu Kanto
[477] Kanto Kanto Chubu Kanto Kanto Kanto Kanto
[484] Kanto Chubu Kanto Kinki Tohoku Kanto Hokkaido
[491] Kanto Chubu Tohoku Chubu Kanto Kanto Kinki
[498] Kinki Kyushu Kinki Kanto Kanto Kinki Kanto
[505] Kyushu Kanto Chubu Kinki Chubu Kanto Kinki
[512] Kyushu Chubu Kanto Chugoku Tohoku Kyushu Kinki
[519] Kanto Kinki Kanto Kanto Kanto Tohoku Chugoku
[526] Chubu Kinki Kinki Kanto Kanto Kanto Kanto
[533] Kanto Kinki Kanto Kinki Kanto Kanto Kinki
[540] Chubu Kanto Kanto Tohoku Kanto Chubu Tohoku
[547] Kanto Kanto Chubu Chubu Kanto Chubu Kanto
[554] Tohoku Chugoku Chubu Kanto Chugoku Kanto Kanto
[561] Kinki Kyushu Kanto Chubu Kinki Kanto Kinki
[568] Kinki Hokkaido Kanto Kanto Kanto Tohoku Kanto
[575] Kinki Kinki Kanto Kanto Kanto Kanto Chubu
[582] Kanto Kyushu Chugoku Kinki Kanto Kanto Chubu
[589] Kanto Kyushu Kanto Kinki Kanto Kyushu Chubu
[596] Chubu Chubu Kanto Kanto Chugoku Tohoku Chubu
[603] Kanto Kanto Kinki Kanto Chugoku Kanto Shikoku
[610] Kanto Hokkaido Chugoku Kyushu Chubu Kanto Kanto
[617] Kanto Kanto Kyushu Chubu Kanto Kanto Chugoku
[624] Chugoku Shikoku Kanto Chugoku Kanto Kanto Kyushu
[631] Hokkaido Kinki Chubu Kanto Kyushu Kanto Tohoku
[638] Kinki Kanto Kanto Kanto Chubu Kanto Kanto
[645] Kyushu Chubu Kanto Chubu Chubu Kanto Kanto
[652] Kyushu Chubu Kanto Kyushu Chubu Kinki Kinki
[659] Kinki Kanto Hokkaido Kanto Kanto Kyushu Kanto
[666] Kyushu Shikoku Tohoku Kyushu Kanto Kinki Kinki
[673] Chubu Hokkaido Kanto Kanto Kanto Chubu Kinki
[680] Kanto Kinki Kanto Kinki Kanto Chugoku Kyushu
[687] Tohoku Kyushu Tohoku Chubu Kanto Kinki Hokkaido
[694] Kanto Kanto Kanto Kinki Kinki Kanto Kanto
[701] Kanto Chubu Chubu Kanto Kinki Chubu Kanto
[708] Kanto Kinki Chugoku Kinki Tohoku Chubu Chubu
[715] Kanto Chubu Kanto Kanto Chubu Kinki Kyushu
[722] Kyushu Kyushu Kanto Chubu Kanto Hokkaido Kanto
[729] Kinki Hokkaido Kanto Kanto Chugoku Kanto Tohoku
[736] Chugoku Chubu Tohoku Kinki Kyushu Chugoku Chugoku
[743] Chubu Kanto Chubu Chubu Kinki Kyushu Chubu
[750] Kinki Kinki Chugoku Chubu Chubu Chubu Kinki
[757] Kyushu Kinki Kinki Chugoku Kyushu Chubu Chubu
[764] Kanto Kyushu Shikoku Kanto Kinki Kanto Kanto
[771] Kanto Chubu Kinki Kinki Hokkaido Kanto Kanto
[778] Chubu Kanto Kyushu Kinki Chugoku Kanto Kanto
[785] Kyushu Chubu Chugoku Kinki Kyushu Kanto Kanto
[792] Tohoku Tohoku Tohoku Kyushu Tohoku Kanto Kanto
[799] Kanto Kanto Tohoku Chugoku Chubu Kanto Kinki
[806] Chubu Kinki Chubu Kanto Kinki Kinki Kanto
[813] Kanto Tohoku Chubu Kanto Tohoku Kanto Kinki
[820] Kyushu Chubu Kanto Chugoku Kanto Kanto Kinki
[827] Chugoku Chugoku Kanto Kyushu Tohoku Tohoku Hokkaido
[834] Kanto Kyushu Chubu Kanto Chubu Tohoku Chubu
[841] Kinki Kinki Kanto Kanto Kinki Chubu Kinki
[848] Kyushu Hokkaido Kyushu Chubu Chubu Kanto Tohoku
[855] Kanto Kanto Kyushu Kanto Kinki Kanto Kanto
[862] Kinki Kinki Kanto Kanto Kinki Tohoku Kanto
[869] Kinki Kanto Kanto Chugoku Chubu Tohoku Kanto
[876] Kanto Kanto Kanto Kyushu Kanto Kanto Chubu
[883] Kyushu Kinki Kyushu Tohoku Chugoku Kyushu Kinki
[890] Kanto Kinki Kyushu Kinki Kanto Kanto Kanto
[897] Kanto Kinki Tohoku Kanto Tohoku Kinki Kanto
[904] Kanto Kinki Kinki Tohoku Kyushu Kanto Kinki
[911] Chubu Hokkaido Kanto Kinki Kanto Kanto Chugoku
[918] Kanto Tohoku Kanto Chugoku Chugoku Hokkaido Kyushu
[925] Kanto Kyushu Kanto Kanto Chubu Kanto Kinki
[932] Chugoku Chubu Kanto Kanto Tohoku Kanto Kanto
[939] Kanto Chubu Shikoku Kinki Kyushu Kanto Hokkaido
[946] Chubu Tohoku Kinki Kanto Chubu Kanto Chubu
[953] Kanto Kinki Kanto Chubu Kinki Kyushu Kyushu
[960] Kanto Chugoku Kyushu Kinki
Levels: Chubu Chugoku Hokkaido Kanto Kinki Kyushu Shikoku Tohoku
head()を使うと最初の5つのデータだけを表示してくれる.## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
head(factor(exdataset$ARE))[1] Hokkaido Chubu Chubu Kanto Kyushu Chubu
Levels: Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
install.packages("addinslist")
[1] Married NotMarried Married NotMarried Married NotMarried
Levels: Married NotMarried
[1] Child NoChild Child NoChild NoChild Child
Levels: Child NoChild
NoChild(子どもなし)を最初として,次にChild(子どもあり)として並べ替えよう.
exdataset$F_SEXのmale(男性)のみを取り出して,exdataset_maleというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう.
[1] 6.002077
library(dplyr)
# dplyrというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('dplyr', dependencies = T)`を最初の一回だけ入力する必要がある.
exdataset_male <- exdataset %>% filter(F_SEX == "male")
# `exdataset`について,`F_SEX`が`male`であるデータだけを取り出す.
# `=`ではなく,`==`であることに注意しよう.
head(factor(exdataset_male$F_SEX))[1] male male male male male male
Levels: male
[1] 5.491358
exdataset$F_SEXのfemale(女性)のみを取り出して,exdataset_femaleというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう.
# A tibble: 2 x 9
CHI Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
<fct> <int> <int> <int> <int> <int> <int> <int> <int>
1 NoChild 192 14 35 68 79 31 10 39
2 Child 184 21 29 80 86 34 8 53
| CHI | Kanto | Hokkaido | Tohoku | Chubu | Kinki | Chugoku | Shikoku | Kyushu |
|---|---|---|---|---|---|---|---|---|
| NoChild | 192 | 14 | 35 | 68 | 79 | 31 | 10 | 39 |
| Child | 184 | 21 | 29 | 80 | 86 | 34 | 8 | 53 |
# A tibble: 2 x 9
CHI Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
<fct> <int> <int> <int> <int> <int> <int> <int> <int>
1 NoChild 192 14 35 68 79 31 10 39
2 Child 184 21 29 80 86 34 8 53
NoChild Child
468 495
Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
376 35 64 148 165 65 18 92
Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
NoChild 192 14 35 68 79 31 10 39
Child 184 21 29 80 86 34 8 53
Kanto Hokkaido Tohoku Chubu Kinki
NoChild 0.41025641 0.02991453 0.07478632 0.14529915 0.16880342
Child 0.37171717 0.04242424 0.05858586 0.16161616 0.17373737
Chugoku Shikoku Kyushu
NoChild 0.06623932 0.02136752 0.08333333
Child 0.06868687 0.01616162 0.10707071
Kanto Hokkaido Tohoku Chubu Kinki Chugoku
NoChild 0.5106383 0.4000000 0.5468750 0.4594595 0.4787879 0.4769231
Child 0.4893617 0.6000000 0.4531250 0.5405405 0.5212121 0.5230769
Shikoku Kyushu
NoChild 0.5555556 0.4239130
Child 0.4444444 0.5760870
, , F_SEX = female
ARE
CHI Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
NoChild 103 7 19 30 39 17 5 22
Child 117 11 16 49 56 24 4 33
, , F_SEX = male
ARE
CHI Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
NoChild 88 7 16 37 39 14 5 16
Child 65 10 13 31 30 10 4 20
, , F_SEX = other
ARE
CHI Kanto Hokkaido Tohoku Chubu Kinki Chugoku Shikoku Kyushu
NoChild 1 0 0 1 1 0 0 1
Child 2 0 0 0 0 0 0 0
library(vcd)
# vcdというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('vcd', dependencies = T)`を最初の一回だけ入力する必要がある.
assocstats(tablee) X^2 df P(> X^2)
Likelihood Ratio 5.1570 7 0.64082
Pearson 5.1408 7 0.64278
Phi-Coefficient : NA
Contingency Coeff.: 0.073
Cramer's V : 0.073
Pearson's Chi-squared test
data: tablee
X-squared = 5.1408, df = 7, p-value = 0.6428
レポートにまとめる時には,こんな書き方をします. > χ二乗検定を行った結果,居住地域と子供の有無は独立であることがわかった(χ=5.1408, df=7, p=.64).
Kanto Hokkaido Tohoku Chubu Kinki
NoChild 1.2252616 -1.0367594 1.0087797 -0.7017295 -0.2030909
Child -1.2252616 1.0367594 -1.0087797 0.7017295 0.2030909
Chugoku Shikoku Kyushu
NoChild -0.1513129 0.5961874 -1.2524729
Child 0.1513129 -0.5961874 1.2524729
χ二乗検定を行った結果,居住地域と子供の有無は関連が認められることがわかった(χ=100, df=7, p</05).さらに,残差分析を行ったところXXとYYにおいてZZという結果が示された(表AAA)
library(esquisse)
# インストールしていなければ,最初はinstall.packages("esquisse")をしておきましょう.
exdataset %>% esquisser()
library(DataExplorer)
# インストールしていなければ,最初はinstall.packages("DataExplorer")をしておきましょ
DataExplorer::create_report(exdataset)
皆さんの理解の程度が良いような印象があるので,RMarkdownについて時間を費やすよりも,実際に分析結果をまとめていく中で理解を深めていったほうが良いと思います.
これからは,分析を実際にやっていきましょう.
一般線形モデルとは,統計学のうち,以下の数式(モデル式)を元に考えていくモデルです.
\[Y_i=\beta_1 X_1 +\beta_2 X_2+ \beta_3 X_3 + .... \alpha+\epsilon_i \]
さて,何か複雑そうなモデル式が出てきてしまいましたが,恐れることはありません.少し,簡単な形にしてあげましょう.そうすると,こんな感じに書くことが出来ます.
\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
このモデル式,何だか見覚えのあるグラフとそっくりだと思います.中学校の時に“一次関数”というのを教わったのを覚えていますでしょうか?一次関数ではこんな数式を使いました.
\[Y=\beta X + \alpha\]
この数式を元に,グラフを書く,ということもやったかと思います.この時,\(\beta\) を傾き,\(\alpha\) を切片という呼び方をしていました.ちなみに,この数式で直線のグラフを書く時には,Xに0を代入した時のポイント(0, \(\alpha\))とXに1を代入したときのポイント(1, \(\beta + \alpha\))を結ぶ直線を引いてあげれば,グラフを作成することができます.
一般線形モデルの一番理解しやすい最初の考え方は,「実際に観察されたデータを元にして,一次関数のような直線を引いてあげよう!」という発想です.ただし,一次関数とちょっと違うのは「全ての点を通らなくてよい」ということです.
一次関数の場合はその直線上にある全ての点を通ることが前提となっていました.しかし,実際には直線であるので,直線上の2点を通れば,全てその条件を満たす直線を引くことが出来ます.
しかし,一般線形モデルの場合は常に全ての点を通るとは限りません.ベストは全ての点を通ることではありますが,実際にはデータには「誤差」というものが存在します.これは本来得られるべき結果と実際に得られた結果にずれがあることを示しています.
この誤差には大きく分けて以下の3種類あります.
測定誤差:実際に何かを計測する時に生じる誤差.大きく分けて以下の2種類がある.
統計誤差(標準誤差):母集団からある一部の集団を取り出す時,選ぶ集団によってどの程度数値が異なり得るのかを調べたもの.統計的に異なり得る範囲を推測することができる,
さて,少し本題に戻りましょう.ちょっと一般線形モデルのモデル式を考えたいと思います.
\[Y_i=\beta_1 X_1 + \alpha+\epsilon_i \]
改めて,このモデル式を説明したいと思います.ここで,“\(Y_i\)”のことを“応答変数”,“\(X_1\)”のことを“説明変数”と呼びましょう.
また,は係数,は切片と呼ばれます.そして,“\(\epsilon_i\)”が一番問題となる誤差です.この誤差は予測されたモデル式である“\(Y_i=\beta_1 X_1 + \alpha\)”からどれだけそのデータの値が離れているかを示しています.
と,言ってもなかなか理解し難いと思うので,一つ試しにやってみましょう.ここでは,「回帰分析」という方法と「t検定」という方法についてお話をしたいと思います.
| 検定名 | 応答変数 | 説明変数 |
|---|---|---|
| 回帰分析 | 数値データ | 数値データ(順序データ) |
| t検定 | 数値データ | 因子データ(ダミー変数,1, 0) |
回帰分析とは,応答変数が数値データであり,説明変数も数値データである場合に用いる方法です.例えば,「身長」と「体重」の間の相関関係について分析をする際にも用います.ここでは,今まで授業で使ってきた「主観的幸福度」と「生活満足度」の間に相関関係があるかどうか,以下の順番に沿って考えてみましょう.
この関係はモデル式で表すと,このような形になります.
\[(主観的幸福度)=\beta_1 (生活満足度) + \alpha+\epsilon_i \]
この時,切片であるは生活満足度が0であった時に対応する主観的幸福度を示しています.
何はともあれ,統計分析をするときには仮説を立ててあげる必要があります.仮説を立てるときには,「帰無仮説」と「対立仮説」の2つを考える必要があります. 対立仮説は「イイタイコト」,帰無仮説は「イイタイコトではないこと」でした.
ここで主観的幸福度と生活満足度の関係ですので,以下のように設定できます.
特に,以下では応答変数を主観的幸福度,説明変数を生活満足度とします.
はじめに,分析対象となるデータを読み込んでおきましょう.
散布図のプロットは他の機能から持ってきてもよいのですが(ex.ExploratoryからRコードを出力して入れる),今回はRStudio上でクリックだけで入れられる方法を紹介します.
その上で,コードを貼り付けて出力することにしましょう.
最初に,ggplotguiというパッケージをインストールします. このインストールは今回だけです.
install.packages("ggplotgui", dependencies = T)
その後,読み込んであげましょう. ここのコードはConsole(コンソール)に直接打ち込みます.
library(ggplotgui)
ggplot_shiny()
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
## You can use the below code to generate the graph.
## Don't forget to replace the 'df' with the name
## of your dataframe
#====================kokokara====================#
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(df, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
#====================kokomade====================#
## この範囲は必ずチャンク内に入れる..
# If you want the plot to be interactive,
# you need the following package(s):
library("plotly")
ggplotly(graph)
## これを入れると,インタラクティブプロット(双方向性のあるプロット)ができる.
# If you would like to save your graph, you can use:
ggsave('my_graph.pdf', graph, width = 14, height = 14, units = 'cm')
## ここを入れると,pdfファイルとして保存できる.
どうもグラフを見ている限りだと,この2変数間には正の相関関係,すなわち「生活満足度が高ければ高いほど,主観的幸福度が高くなる」という傾向にはありそうです.
ただし,今はグラフを見ているだけなので,果たしてこの傾向が本当にあるのかどうかがわかりません.今度はこの傾向が科学的に認められるのかどうかを考えてみましょう.
さて,今度はRで分析してみましょう.ここでは,2行ほどのコードを書いてもらいます.
Call:
lm(formula = SUB_HAP ~ SUB_SAT, data = dataset)
Residuals:
Min 1Q Median 3Q Max
-7.8918 -0.6503 -0.0814 0.7289 6.4015
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.59853 0.10176 15.71 <2e-16 ***
SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.285 on 961 degrees of freedom
Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
出力結果について説明しましょう.
## Call:
## lm(formula = SUB_HAP ~ SUB_SAT, data = dataset)
この行では,分析したモデル式について示しています.簡単に言うと,「生活満足度によって,主観的幸福度は説明できるかどうか試してます...」ということを示しています.
## Residuals:
## Min 1Q Median 3Q Max
## -7.8918 -0.6503 -0.0814 0.7289 6.4015
ここでは,モデル式からのズレ(\(\epsilon_i\))である誤差がどの程度あるのかを示しています.ここでは誤差の最小値,第1四分位点,中央値,第3四分位点,最大値を示しています.一般線形モデルではこの誤差が正規分布になっていることを仮定しています.
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.59853 0.10176 15.71 <2e-16 ***
## SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ここではその分析結果について示しています.第一に注目すべきはこの項目です. “Intercept”は切片を示しています.先程のモデル式でいうと,\(\alpha\) にあたる部分です.加えて,“SUB_SAT”は生活満足度です.先程のモデル式でいうと,\(\beta_1\)にあたる部分です.“Estimate”は推定値を示しています.“Intercept”と交わるところでは\(\alpha\)に入る具体的な数字を示しています.また,“SUB_SAT”と交わるところでは\(\beta_1\)に当てはまる数字が入ります.
したがって,この結果はモデル式で書くと,以下のように示すことが出来ます.
\[(主観的幸福度)=0.81036 ×(生活満足度) + 1.59853+\epsilon_i \]
このモデル式は生活満足度が1あがると,主観的幸福度が0.8106ポイント増加すること,そして生活満足度が0の人の主観的幸福度は1.59853であることが推定されています.
ここに出てくるt valueはt値を,Pr(>|t|)はp値を示しています.そして,最後のsign.if. codesでは,どのような基準で*をつけているかを説明しています.この場合,p値が1-0.1の場合は“.”,0.05-0.01の場合は“*”,0.01-0.001の場合は“**”,0.001-0の場合は“***”,としてつけている,ということが示されています.
統計学の基本的な考え方ではp値が0.05以下,すなわち5%以下である場合には対立仮説を採択することがお約束となっています...が,単純に5%以下であることによって対立仮説を採択することがあってはいけません.
それは以下の理由によります.
## Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
## F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
続いて,確認したいのはこの2行です.“Multiple R-squared”はR2乗(あーるにじょう)値を示しています.ただし,このR2値は決定係数と呼ばれており,回帰式の当てはまり具合を示しています.寄与率とも呼ばれて,この値が1に近ければ近いほどよく説明できているモデル式であると言われます.ただし,R2乗値はこのモデルに組み込まれる説明変数が増えれば増えるほど,より良くなっていきます.そうするといくらでも興味のない変数を入れて重回帰分析(後日説明します)....と,なると決して意味があるモデル式になるとは言えません.
そこで,たくさん変数を入れたことに対するペナルティを加えたのが“Adjusted R-squared”,調整済みR2乗値と呼ばれるものです.こちらを報告してあげると良いかと思います.
最後の“F-statistic”はF検定と呼ばれるものの結果です.2つの群の「標準偏差」が等しいかどうか,を示しているものであり,「等分散性の分析」に用いられているものです.この結果は,主観的幸福度と生活満足度では分散,すなわちばらつき方が異なっている,ということを示しています.
結果をまとめる時は,こんな感じにまとめておくと良いかと思います.
生活満足度1が改善すると,主観的幸福度が0.81改善することが,0.1%水準で示された.(一緒に表を見せると良い.)
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 1.599 | 0.1018 | 15.71 | 1.156e-49 |
| SUB_SAT | 0.8104 | 0.01711 | 47.37 | 1.337e-253 |
| (1) | |
| (Intercept) | 1.599 *** |
| (0.102) | |
| SUB_SAT | 0.810 *** |
| (0.017) | |
| N | 963 |
| R2 | 0.700 |
| logLik | -1607.061 |
| AIC | 3220.121 |
| *** p < 0.001; ** p < 0.01; * p < 0.05. | |
library(stargazer)
stargazer(hapsat_model, type = "html", align=TRUE, title = "分析結果", out = "hapsatmodel.xls")
<table style="text-align:center"><caption><strong>分析結果</strong></caption>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr>
<tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr>
<tr><td style="text-align:left"></td><td>SUB_HAP</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">SUB_SAT</td><td>0.810<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.017)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td style="text-align:left">Constant</td><td>1.599<sup>***</sup></td></tr>
<tr><td style="text-align:left"></td><td>(0.102)</td></tr>
<tr><td style="text-align:left"></td><td></td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>963</td></tr>
<tr><td style="text-align:left">R<sup>2</sup></td><td>0.700</td></tr>
<tr><td style="text-align:left">Adjusted R<sup>2</sup></td><td>0.700</td></tr>
<tr><td style="text-align:left">Residual Std. Error</td><td>1.285 (df = 961)</td></tr>
<tr><td style="text-align:left">F Statistic</td><td>2,244.149<sup>***</sup> (df = 1; 961)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr>
</table>
\[t値=(期待値)-(平均値)/(標準誤差)\]
t値はこんな数式から算出されます.
標準誤差は(標準偏差)/(データ数の平方根)によって計算できることを思い出しておいて下さい.
t値は分子が大きければ,平均値との差が大きいことを示しており,分母が大きければ,標準偏差(分散)が小さく,データ数が十分にあることを示しています.このt値が大きければ大きいほど,帰無仮説を棄却して対立仮説を採択できることを示しています.
一方,p値は帰無仮説が成立していることを前提として,0.05,すなわち5%未満であれば,帰無仮説を棄却するための基準となります.実際に確率的に示すことによって,得られた差異がどの程度珍しいのか,ということを示しています.例えば,p値が0.03,すなわち3%であれば,帰無仮説が正しいとした時に今得られた結果は3%でしか観察できないような珍しいことが起こっていることを示しています.こんなに珍しいことが起こったのは,その帰無仮説が正しくないからであり対立仮説を選ぼう!という論理のもとに対立仮説を採択することになります.
ここでは,t値とp値の計算方法については別書に譲ることとして,ざっくりとした理解で先に行きましょう.
次回までにご自身で分析してみたいテーマ(回帰分析1つ)+(t検定1つ)+(分散分析1つ)の帰無仮説と対立仮説を考えてきてください.
exdataset$MARのMarried(既婚者)のみを取り出して,exdataset_Marriedというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう.
exdataset$MARのNotMarried(未既婚者)のみを取り出して,exdataset_NotMarriedというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう
exdataset$CHIのChild(子どもあり)のみを取り出して,exdataset_Childというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう
exdataset$CHIのNoChild(子どもなし)のみを取り出して,exdataset_NoChildというデータセットを作ってSUB_HAP(主観的幸福度)の平均値を算出してみましょう
"SUB_SLP"は睡眠満足度として,以下の質問項目を尋ねたものである.
あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか?
これについて,以下の2つの分析を実施せよ.
各自でコード表を読み,好きなデータ(数値データ)2種類を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,
ダウンロードはコチラから
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい. あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
|---|---|---|---|
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |
---
title: "データ解析論I第7講"
output:
flexdashboard::flex_dashboard:
vertical-layout: scroll
orientation: columns
source_code: embed
theme: journal
toc: true
toc_depth: 2
fig_mobile: true
highlight: pygments
css: styles_customized.css
---
```{r setup, include=FALSE}
library(flexdashboard)
library(readr)
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
```
# 講義資料
## メイン資料 {.tabset .tabset-fade}
### 今日の資料はコチラから.
スマホで見る方は**QRコード**を読み込んでください
### 前回の復習
#### データの順序付け
* データの順序付け:データを分析しやすいように並び替えること.
- 分析をしやすいように並べ変える必要があることがある.
- Rでは自動的にアルファベット順に並べてくれる.
```{r}
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
exdataset
```
##### 地域を並べ替える.
```{r echo=TRUE}
factor(exdataset$ARE)
```
- 今のままだと中部,中国,北海道,関東,近畿,九州,四国,東北という順番で気持ちが悪い
- 関東を一番始めとして.北から順番に並べ替えましょう.
- `head()`を使うと最初の5つのデータだけを表示してくれる.
- 全部並べると植えみたいに長くなってめんどくさいじゃない?
```{r echo=TRUE}
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
head(factor(exdataset$ARE))
```
- Levelsを確認すると,関東を始めとして,北海道,東北,中部,近畿,中国,四国,九州の順番に並べ替えられる.
- 『関東』を最初にする理由は今後紹介するが,「比較の基準」とするモノを
#### アドインの追加
```
install.packages("addinslist")
```
* インストールした後に,*Addins*をクリックする.
* "order"で検索
* "questionr"をインストール
* RStudioをとじて,再度立ち上げる.
* "Addins"→"Levels Ordering"を選択
* "exdataset"→"ARE"を選択
* "Ordering"タブを選んで,並べ替える.
##### 結婚と子どもの有無についても並べ替えよう.
```{r echo=TRUE}
head(factor(exdataset$MAR))
```
* NoChild(子どもなし)を最初として,次にChild(子どもあり)として並べ替えよう.
```{r echo=TRUE}
head(factor(exdataset$CHI))
```
* NoChild(子どもなし)を最初として,次にChild(子どもあり)として並べ替えよう.
* 並べ替えを手抜きするために"Addin"を使おう.
- そうすればクリックだけでいろいろできる.
#### データのフィルタリング
* データのフィルタリングとは:データを一定の基準で分けること
- ex.データを男性によるデータと女性によるデータに分けて分析を行う
```{r include=FALSE}
exdataset <- read_csv("/Users/akira/Dropbox/Education/2019MEIJI/[3_Wed2]Data_Analytics/analysis/data/exdataset.csv")
library(ggplot2)
## Reordering exdataset$ARE
exdataset$ARE <- factor(exdataset$ARE, levels=c("Kanto", "Hokkaido", "Tohoku", "Chubu", "Kinki", "Chugoku", "Shikoku", "Kyushu"))
## Reordering exdataset$MAR
exdataset$MAR <- factor(exdataset$MAR, levels=c("NotMarried", "Married"))
## Reordering exdataset$CHI
exdataset$CHI <- factor(exdataset$CHI, levels=c("NoChild", "Child"))
```
#### 男性のデータだけを取り出す.
* `exdataset$F_SEX`の`male(男性)`のみを取り出して,`exdataset_male`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう.
* 最初にデータ全体の主観的幸福度の平均値を確認しておきましょう.
```{r echo=TRUE}
mean(exdataset$SUB_HAP)
```
```{r echo=TRUE}
library(dplyr)
# dplyrというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('dplyr', dependencies = T)`を最初の一回だけ入力する必要がある.
exdataset_male <- exdataset %>% filter(F_SEX == "male")
# `exdataset`について,`F_SEX`が`male`であるデータだけを取り出す.
# `=`ではなく,`==`であることに注意しよう.
head(factor(exdataset_male$F_SEX))
mean(exdataset_male$SUB_HAP)
```
#### 女性のデータだけを取り出す.
* `exdataset$F_SEX`の`female(女性)`のみを取り出して,`exdataset_female`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう.
- 各自でやってみましょう.
```{r include=FALSE}
exdataset_female <- exdataset %>% filter(F_SEX == "female")
# `exdataset`について,`F_SEX`が`male`であるデータだけを取り出す.
# `=`ではなく,`==`であることに注意しよう.
head(factor(exdataset_female$F_SEX))
mean(exdataset_female$SUB_HAP)
```
#### 実証分析の手続き・クロス集計表の作成①
* 実証分析:**客観的に**たくさんのケースにまたがって多量のデータを収集した上で,**統計的**な手法によってそれを分析しようとする方法(森田, 2014).
- ただし,個別具体的な事例に踏み込んでの議論には合わないが,**一般性・客観性のある議論には適している**.
- 個別具体的な事例に踏み込んだ議論は分析者の主観的観点が含まれてしまうために,客観性に劣ってしまう.
- いわゆる「質的研究」が抱える課題
* **クロス集計表**:複数の質問項目を組み合わせて集計する手法
- ex. 朝食を食べているか否か×深夜アルバイトしているか否かなど.
- 企業の中でも基本的な統計手法としてよく用いられている.
- 2つの質的変数間の関連性である「連関」を示す.
#### 組み合わせの数をカウントする.
* 使用するパッケージ
```{r, echo=T}
library(dplyr)
# インストールしていなければ,最初はinstall.packages("dplyr")をしておきましょう.
library(tidyr)
# インストールしていなければ,最初はinstall.packages("tidyr")をしておきましょう.
```
#### 地域ごとに子どもがいる人の数を数える.
* 2つの手法
- dplyrのgroup_by関数を使う方法
- table 関数を使う方法
- 現在では前者がメインの手法だが,念のために後者の方法についても紹介する.
- 今の御時世の最先端の関数を使っている
##### dplyrのgroup_by関数を使う方法
```{r, echo=T}
tablea<-exdataset %>%
group_by(ARE, CHI) %>%
tally() %>%
spread(ARE, n)
tablea
```
* ちなみに,panderという関数を使うとキレイにできる.
```{r, echo=T}
library(pander)
pander(tablea)
```
* dplyrのcount関数を使う方法
```{r, echo=T}
tableb<-exdataset %>%
count(ARE, CHI) %>%
spread(ARE, n)
tableb
```
##### table 関数を使う方法
```{r, echo=T}
tablec<- table(exdataset$CHI)
tablec
```
```{r, echo=T}
tabled<- table(exdataset$ARE)
tabled
```
```{r, echo=T}
tablee<-table(exdataset$CHI, exdataset$ARE)
tablee
```
* 行のパーセンテージ
```{r, echo=T}
tableg<-prop.table(tablee, 1)
tableg
```
* 列のパーセンテージ
```{r, echo=T}
tableh<-prop.table(tablee, 2)
tableh
```
#### もっと細かいクロス集計表を出してみよう
```{r echo=T}
xtabs(~ CHI + ARE +F_SEX, exdataset)
```
### 今日のタスク
* 連関係数からやりましょう.
#### 連関係数を出力しよう
* 連関係数:クラメール連関係数V
- 下限が0,上限が1で完全な連関に近づくにつれて1に近い値を取る.
```{r echo=TRUE}
library(vcd)
# vcdというパッケージを用いる.
# もしインストールをしていなかった場合には`install.packages('vcd', dependencies = T)`を最初の一回だけ入力する必要がある.
assocstats(tablee)
```
* 今回の場合は当たり前ですが,地域と子供の有無に連関は認められません.
#### χ二乗検定を行いましょう.
* 対立仮説:居住地域と子供の有無は独立ではない(関連がある)
* 帰無仮説:居住地域と子供の有無は独立である(関連があるとは言えない)
```{r echo=T}
chitest.tablee<-chisq.test(tablee)
chitest.tablee
```
* 検定の結果,p値が.05以上なので,対立仮説を採択できず,帰無仮説を採択する.
* レポートにまとめる時には,こんな書き方をします.
> χ二乗検定を行った結果,居住地域と子供の有無は独立であることがわかった(χ=5.1408, df=7, p=.64).
* もし,χ二乗検定でp値が.05以下であった場合,残差分析を行います.
- どのセルで有意な逸脱が生じたのかを検討する.
- 標準化残差が1.96以上であれば,5%水準で有意な逸脱があったと評価する.
```{r echo=T}
chitest.tablee$stdres
```
* レポートにまとめる時には,こんな書き方をします.
- ここでは居住地域と子供の有無に関連があったことを前提とした妄想文を例とします.
> χ二乗検定を行った結果,居住地域と子供の有無は関連が認められることがわかった(χ=100, df=7, p% rpivotTable()
```
* ただし,再現可能性の観点から課題が残る・・・
- コードを出力してくれない.
- 参考までに使ってみると良いでしょう.
#### いろいろグラフを作ってみよう
```{}
library(esquisse)
# インストールしていなければ,最初はinstall.packages("esquisse")をしておきましょう.
exdataset %>% esquisser()
```
```{}
library(DataExplorer)
# インストールしていなければ,最初はinstall.packages("DataExplorer")をしておきましょ
DataExplorer::create_report(exdataset)
```
#### 質問項目の作成
* *[こちらのリスト](https://docs.google.com/spreadsheets/d/1TNtBJdar2XiVRUFFK_5aTY-zReMA44iqWLXdx6L56HY/edit#gid=0)*に書き込みましょう.
- 質問項目リストを完成させましょう.
#### 一般線形モデルとは
##### これからの授業について
皆さんの理解の程度が良いような印象があるので,RMarkdownについて時間を費やすよりも,実際に分析結果をまとめていく中で理解を深めていったほうが良いと思います.
これからは,分析を実際にやっていきましょう.
##### 概要
一般線形モデルとは,統計学のうち,以下の数式(モデル式)を元に考えていくモデルです.
$$Y_i=\beta_1 X_1 +\beta_2 X_2+ \beta_3 X_3 + .... \alpha+\epsilon_i $$
さて,何か複雑そうなモデル式が出てきてしまいましたが,恐れることはありません.少し,簡単な形にしてあげましょう.そうすると,こんな感じに書くことが出来ます.
$$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
このモデル式,何だか見覚えのあるグラフとそっくりだと思います.中学校の時に"一次関数"というのを教わったのを覚えていますでしょうか?一次関数ではこんな数式を使いました.
$$Y=\beta X + \alpha$$
この数式を元に,グラフを書く,ということもやったかと思います.この時,\(\beta\) を傾き,\(\alpha\) を切片という呼び方をしていました.ちなみに,この数式で直線のグラフを書く時には,Xに0を代入した時のポイント(0, \(\alpha\))とXに1を代入したときのポイント(1, \(\beta + \alpha\))を結ぶ直線を引いてあげれば,グラフを作成することができます.
一般線形モデルの一番理解しやすい最初の考え方は,「実際に観察されたデータを元にして,一次関数のような直線を引いてあげよう!」という発想です.ただし,一次関数とちょっと違うのは「全ての点を通らなくてよい」ということです.
##### 誤差
一次関数の場合はその直線上にある全ての点を通ることが前提となっていました.しかし,実際には直線であるので,直線上の2点を通れば,全てその条件を満たす直線を引くことが出来ます.
しかし,一般線形モデルの場合は常に全ての点を通るとは限りません.ベストは全ての点を通ることではありますが,実際にはデータには「誤差」というものが存在します.これは本来得られるべき結果と実際に得られた結果にずれがあることを示しています.
この誤差には大きく分けて以下の3種類あります.
* 測定誤差:実際に何かを計測する時に生じる誤差.大きく分けて以下の2種類がある.
- 系統誤差(システマティック):何らかの要因により,常に生じてしまう誤差.例えば,自動車で運転者が40km/hで走っているつもりであっても,外部から正確なスピードメーターによって調べると38km/hしか出ていない,など.これはメーターが原因で生じる系統(システマティック)誤差である.
- 偶然誤差:何らかの要因により,偶然生じてしまう誤差.例えば,ブレーキをかけたときに60mで普段止まるが,偶然入ったホコリや水分などによって70mで止まってしまうかもしれない.これは偶然入ったホコリや水分による偶然誤差である.
* 計算誤差:数値をどこかで四捨五入したことによって生じる誤差.例えば,1/3を0.333にして計算することによって計算誤差が生じる.
* 統計誤差(標準誤差):母集団からある一部の集団を取り出す時,選ぶ集団によってどの程度数値が異なり得るのかを調べたもの.統計的に異なり得る範囲を推測することができる,
##### 本題に戻って
さて,少し本題に戻りましょう.ちょっと一般線形モデルのモデル式を考えたいと思います.
$$Y_i=\beta_1 X_1 + \alpha+\epsilon_i $$
改めて,このモデル式を説明したいと思います.ここで,"\(Y_i\)"のことを"応答変数","\(X_1\)"のことを"説明変数"と呼びましょう\footnotemark.
\footnotetext{文字についている"\(_i\)"は各データによって異なる!という区別をするためについています.ちなみに,"\(Y_i\)"は他にも,被説明変数と呼ばれたりします.}
また,\beta は係数,\alpha は切片と呼ばれます.そして,"\(\epsilon_i\)"が一番問題となる誤差です.この誤差は予測されたモデル式である"\(Y_i=\beta_1 X_1 + \alpha\)"からどれだけそのデータの値が離れているかを示しています.
と,言ってもなかなか理解し難いと思うので,一つ試しにやってみましょう.ここでは,「回帰分析」という方法と「t検定」という方法についてお話をしたいと思います.
|検定名 |応答変数 |説明変数 |
|--------|----------|------------------------------|
|回帰分析|数値データ|数値データ(順序データ) |
|t検定 |数値データ|因子データ(ダミー変数,1, 0) |
#### 回帰分析
##### 回帰分析とは
回帰分析とは,応答変数が数値データであり,説明変数も数値データである場合に用いる方法です.例えば,「身長」と「体重」の間の相関関係について分析をする際にも用います.ここでは,今まで授業で使ってきた「主観的幸福度」と「生活満足度」の間に相関関係があるかどうか,以下の順番に沿って考えてみましょう.
この関係はモデル式で表すと,このような形になります.
$$(主観的幸福度)=\beta_1 (生活満足度) + \alpha+\epsilon_i $$
この時,切片である\alpha は生活満足度が0であった時に対応する主観的幸福度を示しています.
##### 仮説を立てる
何はともあれ,統計分析をするときには仮説を立ててあげる必要があります.仮説を立てるときには,「帰無仮説」と「対立仮説」の2つを考える必要があります.
対立仮説は「イイタイコト」,帰無仮説は「イイタイコトではないこと」でした.
ここで主観的幸福度と生活満足度の関係ですので,以下のように設定できます.
* 対立仮説:主観的幸福度と生活満足度の間に相関関係がある.
* 帰無仮説:主観的幸福度と生活満足度の間に相関関係があるとは言えない.
特に,以下では応答変数を主観的幸福度,説明変数を生活満足度とします.
##### 散布図をプロットする
はじめに,分析対象となるデータを読み込んでおきましょう.
```{r dataを読み込む}
dataset <- read.csv("~/Dropbox/Education/2017Eiwa/data_analytics/II/analysis/data/dataset.csv")
```
散布図のプロットは他の機能から持ってきてもよいのですが(ex.ExploratoryからRコードを出力して入れる),今回はRStudio上でクリックだけで入れられる方法を紹介します.
その上で,コードを貼り付けて出力することにしましょう.
最初に,`ggplotgui`というパッケージをインストールします.
このインストールは今回だけです.
```
install.packages("ggplotgui", dependencies = T)
```
その後,読み込んであげましょう.
ここのコードはConsole(コンソール)に直接打ち込みます.
```
library(ggplotgui)
ggplot_shiny()
```
そうすると新しいウィンドウが開きます.
以下の通りの作業をしましょう.
* "*Data upload*"をクリック
* datasetをコピーする
* "*Paste Data*"にペーストをする
* ggplotタブへ
* "*Type of graph:*"は"*Scatter*",Y-variableは"*SUB_HAP*",X-variableは"*SUB_SAT*"を設定
* "*Show regression line*"にチェックを入れる
* "*Show confidence interval*"にチェックを入れる
* R-codeタブへ行って,以下のコードのうち,真ん中のみを以下にする.
-また,コード内の*df*を*dataset*に変える.
```
## You can use the below code to generate the graph.
## Don't forget to replace the 'df' with the name
## of your dataframe
#====================kokokara====================#
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(df, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
#====================kokomade====================#
## この範囲は必ずチャンク内に入れる..
# If you want the plot to be interactive,
# you need the following package(s):
library("plotly")
ggplotly(graph)
## これを入れると,インタラクティブプロット(双方向性のあるプロット)ができる.
# If you would like to save your graph, you can use:
ggsave('my_graph.pdf', graph, width = 14, height = 14, units = 'cm')
## ここを入れると,pdfファイルとして保存できる.
```
```{r}
# You need the following package(s):
library("ggplot2")
# The code below will generate the graph:
graph <- ggplot(dataset, aes(x = SUB_SAT, y = SUB_HAP)) +
geom_point()+
geom_smooth(se = TRUE, method = 'lm') +
theme_bw()
graph
```
どうもグラフを見ている限りだと,この2変数間には正の相関関係,すなわち「生活満足度が高ければ高いほど,主観的幸福度が高くなる」という傾向にはありそうです.
ただし,今はグラフを見ているだけなので,果たしてこの傾向が本当にあるのかどうかがわかりません.今度はこの傾向が科学的に認められるのかどうかを考えてみましょう.
##### 回帰分析をやってみる.
さて,今度はRで分析してみましょう.ここでは,2行ほどのコードを書いてもらいます.
```{r}
hapsat_model<-lm(SUB_HAP~SUB_SAT, data = dataset)
summary(hapsat_model)
```
出力結果について説明しましょう.
```
## Call:
## lm(formula = SUB_HAP ~ SUB_SAT, data = dataset)
```
この行では,分析したモデル式について示しています.簡単に言うと,「生活満足度によって,主観的幸福度は説明できるかどうか試してます...」ということを示しています.
```
## Residuals:
## Min 1Q Median 3Q Max
## -7.8918 -0.6503 -0.0814 0.7289 6.4015
```
ここでは,モデル式からのズレ($\epsilon_i$)である誤差がどの程度あるのかを示しています.ここでは誤差の最小値,第1四分位点,中央値,第3四分位点,最大値を示しています.一般線形モデルではこの誤差が正規分布になっていることを仮定しています.
```
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.59853 0.10176 15.71 <2e-16 ***
## SUB_SAT 0.81036 0.01711 47.37 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
```
ここではその分析結果について示しています.第一に注目すべきはこの項目です.
"Intercept"は切片を示しています.先程のモデル式でいうと,$\alpha$ にあたる部分です.加えて,"SUB_SAT"は生活満足度です.先程のモデル式でいうと,$\beta_1$にあたる部分です."Estimate"は推定値を示しています."Intercept"と交わるところでは$\alpha$に入る具体的な数字を示しています.また,"SUB_SAT"と交わるところでは$\beta_1$に当てはまる数字が入ります.
したがって,この結果はモデル式で書くと,以下のように示すことが出来ます.
$$(主観的幸福度)=0.81036 ×(生活満足度) + 1.59853+\epsilon_i $$
このモデル式は生活満足度が1あがると,主観的幸福度が0.8106ポイント増加すること,そして生活満足度が0の人の主観的幸福度は1.59853であることが推定されています.
ここに出てくるt\ valueはt値を,Pr(>|t|)はp値を示しています.そして,最後のsign.if. codesでは,どのような基準で\*をつけているかを説明しています.この場合,p値が1-0.1の場合は".",0.05-0.01の場合は"\*",0.01-0.001の場合は"\*\*",0.001-0の場合は"\*\*\*",としてつけている,ということが示されています.
統計学の基本的な考え方ではp値が0.05以下,すなわち5%以下である場合には対立仮説を採択することがお約束となっています...が,単純に5%以下であることによって対立仮説を採択することがあってはいけません.
それは以下の理由によります.
* 分野によって10%以上でも有意差を認めることがある.
* 統計的な有意性はデータの量にも依拠するため,単純に評価してよいかどうかは課題がある.
- 心理学系だと「効果量」という議論がある.
```
## Multiple R-squared: 0.7002, Adjusted R-squared: 0.6999
## F-statistic: 2244 on 1 and 961 DF, p-value: < 2.2e-16
```
続いて,確認したいのはこの2行です."Multiple R-squared"はR2乗(あーるにじょう)値を示しています.ただし,このR2値は決定係数と呼ばれており,回帰式の当てはまり具合を示しています.寄与率とも呼ばれて,この値が1に近ければ近いほどよく説明できているモデル式であると言われます.ただし,R2乗値はこのモデルに組み込まれる説明変数が増えれば増えるほど,より良くなっていきます.そうするといくらでも興味のない変数を入れて重回帰分析(後日説明します)....と,なると決して意味があるモデル式になるとは言えません.
そこで,たくさん変数を入れたことに対するペナルティを加えたのが"Adjusted\ R-squared",調整済みR2乗値と呼ばれるものです.こちらを報告してあげると良いかと思います.
最後の"F-statistic"はF検定と呼ばれるものの結果です.2つの群の「標準偏差」が等しいかどうか,を示しているものであり,「等分散性の分析」に用いられているものです.この結果は,主観的幸福度と生活満足度では分散,すなわちばらつき方が異なっている,ということを示しています.
結果をまとめる時は,こんな感じにまとめておくと良いかと思います.
```
生活満足度1が改善すると,主観的幸福度が0.81改善することが,0.1%水準で示された.(一緒に表を見せると良い.)
```
##### 結果をきれいに表記しよう.
* パッケージpanderの中にある関数panderを使うと,結果がわかりやすく表示されます.
```{r echo=TRUE}
library(pander)
pander(hapsat_model)
```
* 他にもパッケージhuxtableの中にhuxregという関数があります.
```{r echo=TRUE}
library(huxtable)
huxreg(hapsat_model)
```
* パッケージstargazerの中にあるstargazerという関数を使うとxls形式で出力できます.
```{r echo=TRUE}
library(stargazer)
stargazer(hapsat_model, type = "html", align=TRUE, title = "分析結果", out = "hapsatmodel.xls")
```
* 作業フォルダの中に"hapsatmodel.xls"というファイルができていますので,そちらを開いてください.
- 注意画面が出てきますが,「気にせずに開く」を選んでください.
##### t値とは?
$$t値=(期待値)-(平均値)/(標準誤差)$$
```
t値はこんな数式から算出されます.
標準誤差は(標準偏差)/(データ数の平方根)によって計算できることを思い出しておいて下さい.
t値は分子が大きければ,平均値との差が大きいことを示しており,分母が大きければ,標準偏差(分散)が小さく,データ数が十分にあることを示しています.このt値が大きければ大きいほど,帰無仮説を棄却して対立仮説を採択できることを示しています.
一方,p値は帰無仮説が成立していることを前提として,0.05,すなわち5%未満であれば,帰無仮説を棄却するための基準となります.実際に確率的に示すことによって,得られた差異がどの程度珍しいのか,ということを示しています.例えば,p値が0.03,すなわち3%であれば,帰無仮説が正しいとした時に今得られた結果は3%でしか観察できないような珍しいことが起こっていることを示しています.こんなに珍しいことが起こったのは,その帰無仮説が正しくないからであり対立仮説を選ぼう!という論理のもとに対立仮説を採択することになります.
ここでは,t値とp値の計算方法については別書に譲ることとして,ざっくりとした理解で先に行きましょう.
```
### 今日のTake Home Messages
#### RMarkdownの記法
* RMarkdown:
- R上でドキュメントを作成するツール
- **html**でも**Word**でも**htmlプレゼンテーション形式**でも報告可能
- 様々な記法を覚えましょう.
* データ分析をするためには,データを適切に取り扱う必要がある.
- filterで分けたり,順番を並べ替えたり.
* クロス集計表はカウントデータ(質的変数)の数を数える手法
* クロス集計に対応した検定は「χ二乗検定」である.
- 統計的に有意であることが確認されたら,「残差分析」を行う.
- でも,ロジスティック回帰分析など,他の手法使うことが多くなる.
- この辺は後期のお話.
```{r}
```
### Rでデータを扱う時に注意すべきこと
* 必ず数字/文字は半角で入力する.
* 日本語は使わずにローマ字を使用する.
* コメントアウト(コードではなく,関係ないメモを入れること)をするときは半角の「#」から始める.
- メモする内容は全角でもよい.
* ファイル名およびパスには決して全角の文字(ひらがな,カタカナ,漢字,全角スペースなど)を入れてはいけない.
- 半角英数字だけにする.
* 慌てずに落ち着いて操作すれば,決して難しくない.
- 1つずつ落ち着いて作業することを心がける.
* 「わからない」ことを恐れない
- 周りの友人に聞いたり,教員に確認したりしよう.
* 文字化け対策に**[こちら](https://docs.google.com/document/d/1CYF6LeFeGV9dTWHGuznkO0Tm4RnhAu2KatdSqFn7bmU/edit)** のp8以降を確認して設定しよう.
# 演習問題
## 問題
### 問題
#### 演習問題:
* 次回までにご自身で分析してみたいテーマ(回帰分析1つ)+(t検定1つ)+(分散分析1つ)の帰無仮説と対立仮説を考えてきてください.
* `exdataset$MAR`の`Married(既婚者)`のみを取り出して,`exdataset_Married`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう.
* `exdataset$MAR`の`NotMarried(未既婚者)`のみを取り出して,`exdataset_NotMarried`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう
* `exdataset$CHI`の`Child(子どもあり)`のみを取り出して,`exdataset_Child`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう
* `exdataset$CHI`の`NoChild(子どもなし)`のみを取り出して,`exdataset_NoChild`というデータセットを作って`SUB_HAP(主観的幸福度)`の平均値を算出してみましょう
##### 演習問題1
"SUB_SLP"は睡眠満足度として,以下の質問項目を尋ねたものである.
あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか?
これについて,以下の2つの分析を実施せよ.
* 主観的幸福度と睡眠満足度の相関関係を分析せよ.
* 生活満足度と睡眠満足度の相関関係を分析せよ.
##### 演習問題2
各自でコード表を読み,好きなデータ(数値データ)2種類を選んだ上で,それぞれと主観的幸福度について回帰分析を実施し,
#### リアクションペーパー:
* 授業で学んだことおよび感想を下記リンクからお答えください.
**[リアクションペーパー](https://forms.gle/jhMGgdhyb3sMgpWm7)**
### ヒント
* パッケージdplyrの関数filterを使います.
* ある列の中にあるデータの名前を個別に指定する時には""(ダブルクォーテーション)で囲います.
```{r}
```
# データの概要
### データ概要
ダウンロードは**[コチラ](https://akrgt.github.io/2019DA/data/exdataset.csv)**から
```{r}
library(DT)
DT::datatable(exdataset)
```
### 変数名リスト
#### 主観的指標
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ------------------------------------------------------------ | ------------------------------------------------ |
| 主観的幸福度 | SUB_HAP | 現在,あなたはどの程度幸せですか?「とても幸せ」を10点,「とても不幸せ」を0点とすると,何点くらいになると思いますか?* | 0点「とても不幸せ」-10点「とても幸せ」 |
| 生活満足度 | SUB_SAT | あなたは全体として最近の生活にどの程度満足していますか?「とても満足」を10点,「とても不満足」を0点とすると,何点くらいになると思いますか? | 0点「とても不満足」-10点「とても満足」 |
| 生活満足度 | SUB_SLP | あなたは最近,どの程度眠れていますか?「とても眠れている」を10点,「全く眠れていない」を0点とすると,何点くらいになると思いますか? | 0点「全く眠れていない」-10点「とても眠れている」 |
#### 独裁者ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんに何ポイントかを渡すことができます.
さて,あなたはBさんに何ポイント渡しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 主観的幸福度 | DIC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| DG友人条件 | DIC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| DG他者条件 | DIC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_提案者
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイントを受け取りました.
そのうち,あなたはBさんとポイントを分け合うことになりました.
あなたは,Bさんに対して分け合うポイントを提案することができます.
あなたは,10ポイントの中から,Bさんに対して分けたポイントを引いた残りを受け取ることができます.
しかし,Bさんがあなたの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,あなたはBさんに何ポイント渡すことを提案しますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案提案者両親条件 | ULT_PRO_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案提案者友人条件 | ULT_PRO_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案提案者他者条件 | ULT_PRO_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 最終提案ゲーム_応答者
図を見て下さい.
あなたはBさんです. AさんはTポイントを10ポイントを受け取りました.
Aさんが,あなたに対して分け合うポイントを提案します.
Aさんは,10ポイントの中から,あなたに対して分けたポイントを引いた残りを受け取ることができます.
しかし,あなたがAさんの提案を拒否した場合には,その提案は実現せずに,
お互いポイントをもらえないことになります.
さて,最低でも何ポイントの提案を受けたら,Aさんの提案を受け入れますか?
ここでは以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------------- | -------------- | ----------------------------- | -------------------- |
| 最終提案応答者両親条件 | ULT_REC_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 最終提案応答者友人条件 | ULT_REC_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 最終提案応答者他者条件 | ULT_REC_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 信頼ゲーム
図を見て下さい.
あなたはAさんです. あなたはTポイントを10ポイント持っています.
いくらかをCさんにあずけてください. CさんはあなたからあずかったTポイントを3倍にしてBさんに渡します.
Bさんは手元に渡されたポイントのうち,いくらかをあなたに返します.
この時,あなたはCさんにいくらあずけますか?
ここではBさんが以下の条件の場合について教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ------------ | -------------- | ----------------------------- | -------------------- |
| 信頼両親条件 | TRU_PAR | Bさんが両親の場合 | 0ポイント-10ポイント |
| 信頼友人条件 | TRU_FRI | Bさんが友人の場合 | 0ポイント-10ポイント |
| 信頼他者条件 | TRU_OTH | Bさんが全く知らない他人の場合 | 0ポイント-10ポイント |
#### 自然関連
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 自然運命 | SPN_UNM | 何かの大きな力に自分の運命は動かされているように感じることがある. | 1全くそう思わない-4非常にそう思う |
| 自然感謝 | SPN_THK | 自然などの人間を超えた力に感謝の気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然恐怖 | SPN_FEA | 自然などの人間を超えた力に恐れの気持ちを持つことがある. | 1全くそう思わない-4非常にそう思う |
| 自然生存 | SPN_LIV | 自然などの人間を超えた力によって,生かされていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | SPN_IMP | 自然は大切な存在である. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 監視
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------------- | -------------- | ------------------------------------------------------------ | --------------------------------- |
| 第2者被監視感 | KAN_SEC | 日常生活の中で,直接誰か(人間)に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第3者被監視感 | KAN_THI | 日常生活の中で,監視カメラ等を通じて誰か(人間)に間接的に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 超自然的被監視感 | KAN_SUP | 日常生活の中で,超自然的な存在に見られていると思うことがある. | 1全くそう思わない-4非常にそう思う |
| 第2者被監視感 | KAN_PRD | 無機物の中に,人間の表情のようなものを見出すことがある. | 1全くそう思わない-4非常にそう思う |
| 自然大切 | KAN_KYK | 人に対して共感をすることがある. | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 死後
以下の質問について4点満点でお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------- | -------------------------------------- | --------------------------------- |
| 死後世界 | DED_SHI | 「死後の世界」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天国 | DED_TEN | 「天国」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 地獄 | DED_JIG | 「地獄」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 奇跡 | DED_KIS | 「奇跡」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| 天罰 | DED_PUN | 「天罰」が存在すると思いますか? | 1全くそう思わない-4非常にそう思う |
| | | | |
#### 性行動
以下の質問についてお答えください.
| 項目名 | データタイトル | 質問項目 | 回答 |
| ---------- | ---------------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性衝動 | SEX_IMP,SEX_IMP_num(数値,欠損値有り) | あなたの性衝動はどの程度強いと思いますか?7点満点でお答え下さい.なお,答えたくない方は「8.答えたくない」を選んで下さい. | 全く弱い.2. 弱い.3. どちらかと言えば弱い.4. どちらとも言えない.5. どちらかと言えば強い.6. 強い.7. 非常に強い.8. 答えたくない. |
| 自慰回数 | SEX_MAS,SEX_MAS_nen(年間回数): | あなたはどの程度の頻度でマスターベーションをしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性交渉回数 | SEX_SEX,SEX_SEX_nen(年間回数) | あなたはどの程度の頻度で性交渉(性行為)をしていますか?以下の選択肢の中から最も近いものを選んで下さい.なお,答えたくない方は「10. 答えたくない」を選んで下さい. | 1. 経験がない「0」, 2. 年に1回程度「1」, 3. 半年に1回程度「2」, 4. 3ヶ月に1回程度「4」, 5. 1ヶ月に1回程度「12」, 6. 2週に1回程度「26」, 7. 週に1回程度「52」, 8. 週に2-3回程度「130」, 9. 1日に1回程度「365」, 10. それ以上「730」, 11. 答えたくない「NA」 |
| 性衝動対象 | SEX_OBJ | あなたの性衝動の対象として当てはまる選択肢を選んで下さい.なお,答えたくない方は「5.答えたくない」を選んで下さい. | 1.異性, 2. 同性,3. 両方,4. その他,5. 答えたくない |
| 天罰 | SEX_NIN,SEX_NIN_cen(中央値) | あなたが性交渉(性行為)をしたことがある人数を教えて下さい.* 性交渉を(性行為)したことがない場合は「0. 0人」を選んで下さい. また,答えたくない方は「12.答えたくない」を選んで下さい. | 1. 0人 「0」, 2. 1人 「1」, 3. 2〜3人 「2.5」, 4. 4〜5人 「4.5」, 5. 5〜7人 「6」, 6. 8〜10人 「9」, 7. 11〜15人 「13」, 8. 16〜20人 「18」, 9. 21〜30人 「25.5」, 10. 31〜40人 「35.5」, 11. 41〜100人 「70.5」, 12. 101人以上 「101」, 13. 答えたくない.「NA」 |
| 性情報開示 | SEX_NNA | 性情報に対して開示しなかった個数 | 上記5つについて答えたくないを選んだ個数 |
| | | | |
#### フェイスシート
あなたのことについて教えて下さい.
| 項目名 | データタイトル | 質問項目 | 回答 |
| -------- | -------------------------------- | ------------------------------------------------------------ | ------------------------------------------------------------ |
| 性別 | F_SEX | あなたの性別を教えて下さい. | 1.男性, 2.女性,3.その他 |
| 世代 | F_GEN | あなたの年齢を教えて下さい. | 1. 10代前半, 2. 10代後半, 3. 20代前半, 4. 20代後半, 5. 30代前半, 6. 30代後半, 7. 40代前半, 8. 40代後半, 9. 50代前半, 10. 50代前半, 11. 60代前半, 12. 60代後半, 13. 70代以降 |
| 最終学歴 | F_FGR | あなたの最終学歴を教えて下さい. | 1. 中学校卒業, 2. 高校中退, 3. 高校卒業, 4. 専門学校(短期大学)中退, 5. 専門学校(短期大学)卒業, 6. 大学中退, 7. 大学卒業, 8. 大学院修士課程(博士前期課程)中退, 9. 大学院修士課程(博士前期課程)修了, 10. 大学院博士課程(博士後期課程)中退, 11. 大学院博士課程(博士後期課程)修了 |
| 個人収入 | F_INK,F_INK_cen(中央値,百万円) | あなた個人の年収を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 世帯収入 | F_INS,F_INS_cen(中央値,百万円) | あなたの世帯での収入の合計を教えて下さい. | 0. 0円, 1. 1円〜200万円未満, 2. 200万円以上〜400万円未満, 3. 400万円以上〜600万円未満, 4. 600万円以上〜800万円未満, 5. 800万円以上〜1,000万円未満, 6. 1,000万円以上〜1,200万円未満, 7. 1,200万円以上〜1,500万円未満, 8. 1,500万円以上〜2,000万円未満, 9. 2,000万円以上, 10. わからない |
| 回答端末 | F_TAN | あなたが現在回答に使われているケータイ/タブレット/パソコンについて,当てはまるものを選んで下さい. | 1. パソコン(Windows), 2. パソコン(Mac), 3. パソコン(その他), 4. タブレット(Windows), 5. タブレット(iOS,iPad), 6. タブレット(android), 7. タブレット(その他), 8. スマホ(Windows), 9. スマホ(iOS,iPhone), 10. スマホ(android), 11. スマホ(その他), 12. ガラケー,フィーチャーホン, 13. その他 |
| 都道府県 | PRE | あなたのお住まいの県を教えて下さい. | 1. 北海道2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県36. 徳島県37. 香川県38. 愛媛県39. 高知県40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県 |
| 地域 | ARE | 都道府県から地域に変換 | 北海道:1. 北海道,東北地方:2. 青森県3. 岩手県4. 宮城県5. 秋田県6. 山形県7. 福島県,関東地方:8. 茨城県9. 栃木県10. 群馬県11. 埼玉県12. 千葉県13. 東京都14. 神奈川県,中部地方:15. 新潟県16. 富山県17. 石川県18. 福井県19. 山梨県20. 長野県21. 岐阜県22. 静岡県23. 愛知県24. 三重県,近畿地方:25. 滋賀県26. 京都府27. 大阪府28. 兵庫県29. 奈良県30. 和歌山県,中国地方:31. 鳥取県32. 島根県33. 岡山県34. 広島県35. 山口県,四国地方:36. 徳島県37. 香川県38. 愛媛県39. 高知県,九州地方:40. 福岡県41. 佐賀県42. 長崎県43. 熊本県44. 大分県45. 宮崎県46. 鹿児島県47. 沖縄県|
| 未既婚 | MAR | あなたはご結婚されていますか? | NotMarried:未婚,Married:既婚 |
| 子の有無 | CHI | あなたはお子さんがいらっしゃいますか? | NoChild:いない,Child:いる |